網路爬蟲 - AJAX
AJAX
甚麼是AJAX
網頁前端的Javascript的程式技術
為什麼我們要討論這個
因為當網頁前端採用這個技術開發時,會影響到我們爬蟲的運作
瀏覽器輸入一個網址,他會發送請求送到網站伺服器,接著伺服器會把網頁且帶有資料送回到瀏覽器,瀏覽器就會把這些資料顯示出來,所以我們打開網頁可以看到文章的資料
但是如果網頁採用AJAX的運作技術
瀏覽器接收到網址後,他會發送請求到網址伺服器,伺服器會把HTML網頁送回但她的網頁不會帶有任何的資料,他大概只有標籤和一些程式,但不會有文章的標籤或內容等等,瀏覽器會根據他的程式碼發送第二次請求到WEB伺服器,這時候他才會把真正的資料送回來,最後才會把這些資料顯示在畫面上,或是更多次請求(這些動作叫做AJAX的技巧)
Medium 文章列表
抓取知名網站medium.com的首頁文章列表
關鍵問題
認出網站運作模式,找出真正能夠抓到資料的網址是哪一個網址
參考來源:https://www.youtube.com/watch?v=IMOUf4BYTG8&list=PL-g0fdC5RMboYEyt6QS2iLb_1m7QcgfHk&index=21